Xử lý ngôn ngữ là gì? Các bài nghiên cứu khoa học liên quan

Xử lý ngôn ngữ là lĩnh vực giúp máy tính hiểu và tạo ra ngôn ngữ tự nhiên bằng cách kết hợp mô hình tính toán với các nguyên tắc ngôn ngữ học để phân tích văn bản. Công nghệ này định nghĩa khả năng máy xử lý cú pháp, ngữ nghĩa và ngữ cảnh nhằm mô phỏng cách con người diễn đạt và sử dụng ngôn ngữ trong nhiều tình huống khác nhau.

Giới thiệu chung

Xử lý ngôn ngữ (Natural Language Processing, NLP) là lĩnh vực kết hợp giữa khoa học máy tính, ngôn ngữ học và trí tuệ nhân tạo nhằm giúp máy tính hiểu và tạo ra ngôn ngữ tự nhiên theo cách có cấu trúc và có ý nghĩa. Đây là nền tảng của nhiều hệ thống phân tích văn bản và tương tác người máy hiện đại. NLP tập trung vào việc thu nhỏ khoảng cách giữa cách con người diễn đạt và cách máy tính xử lý ký hiệu, từ đó tạo điều kiện để dữ liệu ngôn ngữ được phân tích, tổ chức và khai thác theo quy mô lớn.

Sự phát triển của NLP gắn liền với nhu cầu xử lý dữ liệu văn bản ngày càng tăng. Văn bản trong môi trường số được tạo ra liên tục dưới dạng email, báo cáo, bài viết, nhật ký hệ thống hoặc các cuộc trò chuyện trực tuyến. NLP cung cấp công cụ tự động hóa để trích xuất thông tin, phân tích cảm xúc, tóm tắt nội dung và hỗ trợ ra quyết định. Năng lực này trở nên quan trọng trong các lĩnh vực như y tế, tài chính, pháp lý và truyền thông khi lượng thông tin vượt quá khả năng xử lý thủ công.

Bảng dưới đây tóm lược các ứng dụng thường gặp của NLP trong công nghệ hiện đại:

Ứng dụng Mục đích Lĩnh vực
Phân tích cảm xúc Đánh giá thái độ người dùng Marketing, truyền thông
Dịch máy Chuyển đổi ngôn ngữ tự nhiên Giáo dục, công nghệ
Chatbot Tự động hóa hội thoại Dịch vụ khách hàng
Tìm kiếm thông tin Hiểu truy vấn và trả kết quả Công cụ tìm kiếm

Cơ sở ngôn ngữ học

NLP dựa trên nền tảng ngôn ngữ học bao gồm các cấp độ như cú pháp, ngữ nghĩa, ngữ dụng, hình thái và âm vị học. Những yếu tố này giúp mô hình nhận diện cấu trúc câu, quan hệ giữa các từ, hàm ý ngữ cảnh và chức năng giao tiếp. Khi xử lý ngôn ngữ tự nhiên, việc hiểu đúng vai trò ngữ pháp của từng thành phần là điều kiện tiên quyết để mô hình tái tạo hoặc phân tích chính xác chuỗi văn bản.

Cú pháp cung cấp quy tắc tổ chức từ và cụm từ để tạo thành câu hoàn chỉnh. Ngữ nghĩa giải thích nghĩa của từ và quan hệ giữa các từ trong một đơn vị văn bản. Ngữ dụng tập trung vào cách con người sử dụng ngôn ngữ trong bối cảnh thực tế, bao gồm mối quan hệ giữa mục đích giao tiếp và cách diễn đạt. Những tầng ngôn ngữ này tương tác phức tạp, tạo ra sự đa dạng của ngôn ngữ tự nhiên mà mô hình NLP cần học để xử lý.

Dữ liệu và tài liệu nghiên cứu liên quan đến ngôn ngữ học có thể tham khảo tại Linguistic Society of America. Các khía cạnh ngôn ngữ học quan trọng trong NLP thường bao gồm:

  • Cú pháp: cấu trúc câu và mối quan hệ giữa các thành phần.
  • Ngữ nghĩa: nghĩa của từ, đa nghĩa và quan hệ ngữ nghĩa.
  • Ngữ dụng: ngữ cảnh giao tiếp và hàm ý.
  • Hình thái học: cấu tạo từ và biến thể từ.

Mô hình thống kê và xác suất

Trước khi học sâu trở thành xu hướng chính, NLP dựa mạnh vào các mô hình thống kê để mô phỏng ngôn ngữ. Những mô hình này xây dựng xác suất xuất hiện của từ hoặc chuỗi từ và dùng chúng để dự đoán nội dung tiếp theo hoặc đánh giá cấu trúc câu. Mô hình n-gram là ví dụ cơ bản, trong đó xác suất của một từ được tính dựa trên các từ liền kề trước đó. Sự đơn giản của mô hình giúp nó dễ huấn luyện nhưng độ chính xác phụ thuộc mạnh vào kích thước tập dữ liệu.

Mô hình Markov ẩn (HMM) được sử dụng rộng rãi trong gán nhãn từ loại, nhận dạng tiếng nói và phân đoạn câu. HMM giả định rằng văn bản là chuỗi các trạng thái ẩn, mỗi trạng thái sinh ra một từ quan sát được. Hệ thống thống kê này giúp mô hình hóa các quá trình ngôn ngữ theo cách có quy luật nhưng vẫn cho phép biến thiên tự nhiên của ngôn ngữ. Các mô hình phân phối sau đó mở rộng nguyên tắc thống kê để biểu diễn nghĩa từ bằng cách xem xét tần suất xuất hiện trong các ngữ cảnh lớn.

Một dạng mô hình hóa xác suất của chuỗi từ có thể mô tả bằng công thức:

P(w1,w2,...,wn)i=1nP(wiwik,...,wi1)P(w_1, w_2, ..., w_n) \approx \prod_{i=1}^{n} P(w_i \mid w_{i-k}, ..., w_{i-1})

Các mô hình thống kê truyền thống có tính mô phỏng đơn giản và dễ triển khai nhưng hạn chế khi ngữ cảnh dài hoặc cấu trúc ngữ nghĩa phức tạp. Tuy vậy, chúng vẫn là nền tảng hình thành nhiều kỹ thuật hiện đại trong NLP.

Học máy và học sâu trong NLP

Sự xuất hiện của học sâu tạo thay đổi đáng kể trong cách máy tính xử lý ngôn ngữ. Các mô hình như RNN, LSTM giải quyết được hạn chế về ngữ cảnh dài trong mô hình thống kê bằng cách lưu trữ trạng thái và truyền thông tin theo thời gian. Mặc dù hiệu quả, các mô hình này gặp khó khăn khi xử lý chuỗi quá dài và dễ mắc lỗi khi gradient biến mất.

Bước ngoặt lớn xuất hiện khi mô hình Transformer ra đời, sử dụng cơ chế tự chú ý để phân tích toàn bộ chuỗi văn bản cùng lúc. Kiến trúc này giúp mô hình ghi nhận mối quan hệ xa trong câu một cách chính xác hơn, đồng thời tăng tốc độ huấn luyện. Các mô hình dựa trên Transformer như BERT, GPT hoặc T5 trở thành tiêu chuẩn mới trong nhiều tác vụ NLP nhờ khả năng ngữ cảnh hóa mạnh.

Tài liệu chuyên sâu về học sâu và NLP có thể xem tại DeepLearning.ai. Một số mô hình học sâu quan trọng trong NLP:

  • RNN: xử lý tuần tự, thích hợp cho chuỗi ngắn.
  • LSTM và GRU: khắc phục gradient biến mất.
  • Transformer: tăng khả năng ghi nhớ ngữ cảnh dài.
  • BERT và GPT: mô hình ngôn ngữ tiền huấn luyện mạnh.

Xử lý văn bản và tiền xử lý

Xử lý văn bản là bước nền tảng của mọi hệ thống NLP vì dữ liệu thô thường chứa nhiều yếu tố nhiễu như dấu câu không cần thiết, ký tự đặc biệt, biến thể chữ viết và lỗi chính tả. Quá trình tiền xử lý giúp chuẩn hóa văn bản, tạo điều kiện để mô hình học máy hoặc học sâu phân tích dễ dàng hơn. Một số tác vụ cơ bản bao gồm chuyển văn bản về dạng chữ thường, loại bỏ ký tự không mong muốn và chuẩn hóa khoảng trắng.

Tách từ là bước quan trọng, đặc biệt trong các ngôn ngữ không có dấu cách giữa các từ như tiếng Trung hoặc tiếng Việt. Việc xác định ranh giới từ giúp mô hình hiểu chính xác từng thành phần trong câu và giảm nhầm lẫn giữa các cụm từ có cấu trúc tương tự. Song song với đó, việc loại bỏ từ dừng như “và”, “hoặc”, “nhưng” giúp giảm nhiễu và tăng độ tập trung vào từ khóa mang nghĩa. Gán nhãn từ loại (POS tagging) giúp mô hình xác định vai trò của mỗi từ như danh từ, động từ hay tính từ để từ đó xây dựng cấu trúc câu.

Nhiều hệ thống còn tiến hành phân đoạn câu, chuẩn hóa dấu câu hoặc stemming và lemmatization để đưa các từ về dạng gốc. Các phương pháp này giúp mô hình giảm kích thước từ vựng và tăng hiệu quả khi học biểu diễn ngôn ngữ. Dưới đây là một số bước tiền xử lý phổ biến:

  • Chuyển văn bản về chữ thường.
  • Loại bỏ từ dừng và ký tự không cần thiết.
  • Tách từ và phân đoạn câu.
  • Gán nhãn từ loại và trích xuất đặc trưng cú pháp.

Ngữ nghĩa và hiểu ngôn ngữ

Hiểu ngôn ngữ là một trong những thách thức lớn nhất của NLP vì mô hình phải diễn giải đúng nghĩa của từ trong từng ngữ cảnh cụ thể. Một từ có thể mang nhiều nghĩa tùy vào vị trí, cấu trúc câu và tình huống giao tiếp. Do đó, NLP cần cơ chế xử lý linh hoạt để giải quyết hiện tượng đa nghĩa, mơ hồ ngữ nghĩa và phụ thuộc ngữ cảnh. Các mô hình truyền thống dựa vào từ điển hoặc quy tắc thủ công nhưng dễ bị giới hạn trong môi trường thực tế đa dạng.

Phân tích thực thể (Named Entity Recognition) là nhiệm vụ quan trọng trong ngữ nghĩa nhằm xác định tên người, địa điểm, tổ chức hoặc các thực thể quan trọng khác trong văn bản. Giải quyết đồng tham chiếu (coreference resolution) giúp mô hình hiểu được khi nào các đại từ như “anh ấy”, “cô ấy”, “họ” đề cập đến cùng một thực thể. Quan hệ giữa thực thể (relation extraction) cho phép rút ra tri thức có cấu trúc từ văn bản, tạo nền cho các hệ thống tri thức và tìm kiếm thông minh.

Các mô hình biểu diễn từ theo vector như Word2Vec, GloVe và FastText giúp nắm bắt quan hệ ngữ nghĩa thông qua khoảng cách trong không gian đa chiều. Các mô hình hiện đại hơn như BERT mang lại biểu diễn ngữ cảnh hóa, trong đó mỗi từ được hiểu theo vị trí thực tế trong câu thay vì theo nghĩa tĩnh. Điều này cải thiện đáng kể khả năng hiểu ngôn ngữ tự nhiên trong các hệ thống NLP quy mô lớn.

Tạo sinh ngôn ngữ tự nhiên

Tạo sinh ngôn ngữ tự nhiên (NLG) bao gồm nhiều nhiệm vụ như viết lại câu, mô tả dữ liệu, sinh văn bản, tóm tắt tài liệu hoặc trả lời câu hỏi. Mục tiêu của NLG là tạo ra đầu ra tự nhiên, mạch lạc và phù hợp với bối cảnh. Các mô hình hiện đại dựa trên kiến trúc Transformer sử dụng cơ chế tự chú ý để học cách dự đoán từ tiếp theo trong chuỗi bằng cách phân tích toàn bộ ngữ cảnh xung quanh.

Trong quá trình tạo văn bản, mô hình ngôn ngữ có nhiệm vụ tối đa hóa xác suất xuất hiện của từ tiếp theo. Mối quan hệ này có thể được mô tả bằng công thức:

wt=argmaxwP(ww1,...,wt1)w_t = \arg\max_{w} P(w \mid w_1, ..., w_{t-1})

Khả năng dự đoán chính xác từ tiếp theo giúp mô hình tạo ra đoạn văn mượt, logic và ít lặp lại hơn. Các hệ thống hiện đại còn dùng phương pháp beam search, sampling hoặc nucleus sampling để tăng độ tự nhiên của văn bản. NLG đóng vai trò quan trọng trong các hệ thống chatbot, báo cáo tự động và tổng hợp dữ liệu mô tả.

Dữ liệu sinh ngôn ngữ có thể được cải thiện bằng cách huấn luyện mô hình trên tập văn bản lớn, kết hợp tri thức từ các nguồn uy tín như Allen Institute for AI để tăng độ chính xác và giảm thiên lệch.

Ứng dụng của NLP

NLP hiện diện trong hầu hết các hệ thống công nghệ hiện đại nhờ khả năng xử lý khối lượng lớn dữ liệu ngôn ngữ tự nhiên. Trong tìm kiếm thông tin, NLP giúp hiểu truy vấn người dùng và sắp xếp kết quả theo mức độ liên quan. Trong chăm sóc khách hàng, chatbot sử dụng NLP để trả lời tự động hàng triệu yêu cầu mỗi ngày. Phân tích cảm xúc cho phép doanh nghiệp hiểu phản hồi khách hàng và cải thiện chiến lược tiếp thị.

Trong lĩnh vực y tế, NLP hỗ trợ phân tích hồ sơ bệnh án, trích xuất dữ liệu quan trọng và hỗ trợ chẩn đoán. Trong giáo dục, NLP được ứng dụng để đánh giá bài viết tự động hoặc hỗ trợ dịch ngôn ngữ cho người học. Trong pháp lý, NLP giúp phân tích tài liệu, tìm kiếm bằng chứng và tổng hợp thông tin từ các văn bản dài.

Các ứng dụng tiêu biểu bao gồm:

  • Dịch máy và phân tích song ngữ.
  • Nhận dạng giọng nói và tổng hợp tiếng nói.
  • Hệ thống hỏi đáp trong trợ lý ảo.
  • Phân tích chủ đề trong tập dữ liệu lớn.

Thách thức và hạn chế

Mặc dù NLP đã đạt được nhiều bước tiến lớn, lĩnh vực này vẫn đối mặt với nhiều thách thức. Ngôn ngữ tự nhiên có tính linh hoạt, mơ hồ và biến thiên cao theo bối cảnh văn hóa, xã hội và vùng miền. Một câu có thể mang hàm ý sâu xa mà mô hình khó nhận diện nếu chỉ dựa trên chuỗi ký tự. Ngoài ra, các mô hình lớn thường yêu cầu lượng dữ liệu và tài nguyên tính toán khổng lồ để đạt độ chính xác cao.

Thiên lệch dữ liệu là vấn đề đáng lo ngại trong NLP. Nếu dữ liệu huấn luyện mang thiên lệch, mô hình sẽ tái hiện và khuếch đại thiên lệch này trong kết quả. Điều này gây rủi ro trong các ứng dụng liên quan đến pháp lý, tuyển dụng hoặc chăm sóc sức khỏe. Vấn đề minh bạch và khả năng giải thích mô hình cũng là thách thức đối với nhiều hệ thống NLP hiện đại dựa trên mạng nơ-ron sâu.

Các hạn chế chính của NLP gồm:

  • Xử lý mơ hồ ngôn ngữ và ẩn dụ còn hạn chế.
  • Cần tài nguyên dữ liệu và tính toán lớn.
  • Thiên lệch dữ liệu và hạn chế về đạo đức.
  • Khó giải thích quyết định của mô hình.

Xu hướng tương lai

Xu hướng mới trong NLP tập trung vào mô hình đa phương thức, kết hợp văn bản với hình ảnh, âm thanh hoặc dữ liệu cảm biến để hiểu ngữ cảnh tốt hơn. Các mô hình đa phương thức giúp cải thiện khả năng suy luận, mô tả hình ảnh, phân tích video và hỗ trợ ra quyết định trong môi trường phức tạp. Khả năng kết hợp kiến thức từ nhiều nguồn cũng giúp các mô hình giảm lệ thuộc vào văn bản thuần túy.

Một xu hướng quan trọng khác là cải thiện khả năng suy luận của mô hình NLP. Các phương pháp như chain-of-thought, mô hình kết hợp logic và tri thức biểu tượng đang được nghiên cứu để nâng cao khả năng giải thích và lý luận. Đồng thời, các nỗ lực tối ưu hóa mô hình ngôn ngữ lớn nhằm giảm chi phí tính toán, cải thiện hiệu suất và tăng tính bền vững cũng ngày càng được chú trọng.

Xu hướng tương lai có thể bao gồm:

  • Mô hình ngôn ngữ đa phương thức.
  • Tăng cường suy luận logic.
  • Giảm thiên lệch và cải thiện đạo đức thuật toán.
  • Mô hình nhẹ, tiêu tốn ít tài nguyên hơn.

Tài liệu tham khảo

  1. Linguistic Society of America. Linguistics Resources. https://www.linguisticsociety.org
  2. DeepLearning.ai. Natural Language Processing Specialization. https://www.deeplearning.ai
  3. Allen Institute for AI. NLP Research. https://allenai.org
  4. ScienceDirect. Natural Language Processing Research. https://www.sciencedirect.com

Các bài báo, nghiên cứu, công bố khoa học về chủ đề xử lý ngôn ngữ:

Mạng lưới thần kinh tâm lý quy mô lớn và xử lý phân bố cho sự chú ý, ngôn ngữ và trí nhớ Dịch bởi AI
Annals of Neurology - Tập 28 Số 5 - Trang 597-613 - 1990
Tóm tắtNhận thức và hành vi được hỗ trợ bởi các mạng lưới thần kinh liên kết cho phép các kiến trúc tính toán cấp cao, bao gồm cả xử lý phân tán song song. Các vấn đề nhận thức không được giải quyết bằng cách tiến triển tuần tự và theo cấp bậc hướng tới các mục tiêu xác định trước, mà thay vào đó được giải quyết thông qua việc xem xét đồng thời và tương tác giữa nhiều khả năng và ràng buộc cho đến... hiện toàn bộ
Tái định nghĩa các mô hình chức năng của tổ chức hạch nền: Vai trò của hạch pallidum posteroventral trong xử lý ngôn ngữ? Dịch bởi AI
Movement Disorders - Tập 19 Số 11 - Trang 1267-1278 - 2004
Tóm tắtTruyền thống, hạch nền đã được liên kết với hành vi vận động, vì chúng tham gia vào cả việc thực hiện các hành động tự động và việc điều chỉnh các hành động hiện tại trong các ngữ cảnh mới. Đối với nhận thức, vai trò của hạch nền chưa được định nghĩa một cách rõ ràng. Liên quan đến các quá trình ngôn ngữ, các lý thuyết hiện đại về sự tham gia của cấu trúc dưới vỏ não trong ngôn ngữ đã ủng h... hiện toàn bộ
Tạo đề thi tự động và bán tự động cho các khóa học ngôn ngữ học cơ bản bằng cách sử dụng tài nguyên Xử lý Ngôn ngữ Tự nhiên và Tập văn bản Dịch bởi AI
Global Science and Technology Forum - Tập 3 - Trang 1-6 - 2015
Bài báo này mô tả một tập hợp các mô-đun Xử lý Ngôn ngữ Tự nhiên (NLP) tự động tạo ra các bài tập cho các khóa học giới thiệu về ngôn ngữ học cấu trúc và ngữ pháp tiếng Anh tại một trường đại học Canada. Trong khi có nhu cầu ngày càng tăng về các bài tập điện tử, công cụ kiểm tra trực tuyến và các khóa học ngôn ngữ học và ngữ pháp tự chứa, các bài tập và bài kiểm tra được cung cấp trên các trang w... hiện toàn bộ
#Xử lý Ngôn ngữ Tự nhiên #ngôn ngữ học cấu trúc #ngữ pháp tiếng Anh #tạo bài tập tự động #công cụ kiểm tra trực tuyến #tự đánh giá
SỬ DỤNG BERT CHO TÓM TẮT TRÍCH RÚT VĂN BẢN
Tạp chí khoa học và công nghệ - Tập 26 - Trang 74-79 - 2020
Bài báo này giới thiệu một phương pháp tóm tắt trích rút các văn bản sử dụng BERT. Để làm điều này, các tác giả biểu diễn bài toán tóm tắt trích rút dưới dạng phân lớp nhị phân mức câu. Các câu sẽ được biểu diễn dưới dạng vector đặc trưng sử dụng BERT, sau đó được phân lớp để chọn ra những câu quan trọng làm bản tóm tắt. Chúng tôi thử nghiệm phương pháp trên 3 tập dữ liệu với 2 ngôn ngữ (Tiếng Anh... hiện toàn bộ
#Tóm tắt văn bản #xử lý ngôn ngữ #học máy #học sâu #học không giám sát
Giải pháp trích rút và phân loại các thực thể danh từ riêng cho kho ngữ liệu phục vụ xử lý ngôn ngữ tự nhiên
Tạp chí Khoa học và Công nghệ - Đại học Đà Nẵng - - Trang 120-124 - 2014
Trích rút và phân loại thực thể danh từ riêng cho các kho ngữ liệu phục vụ xử lý ngôn ngữ tự nhiên là bước quan trọng và là tiền đề cho việc mở rộng cũng như xây dựng các kho ngữ liệu theo hướng ngữ nghĩa. Việc nghiên cứu trích rút và phân loại thông tin đã được thực hiện với nhiều ngôn ngữ. Tuy nhiên, đến nay vẫn chưa có công trình nào nghiên cứu trích ... hiện toàn bộ
#trích rút thông tin #phân loại thông tin #kho ngữ liệu #trích rút tên riêng #phân loại tên riêng
Phát hiện lỗ hổng mã nguồn bằng cách sử dụng xử lý ngôn ngữ Nature và mạng đồ thị sâu
Tạp chí Khoa học - Công nghệ trong lĩnh vực An toàn thông tin - - Trang 27-42 - 2024
Công nghiệp sản xuất phần mềm hưởng lợi từ các công cụ tự động sinh mã. Tuy nhiên cũng gặp thách thức về lỗ hổng phần mềm trong các mã sinh tự động đó. Liên quan đến phát hiện lỗ hổng phần mềm viết bằng các ngôn ngữ C và C++, bài báo đề xuất mô hình hỗn hợp giữa Graph Convolution Network (GCN) kết hợp với mô hình Bidirectional Encoder Representations from Transformers (BERT) và Dropout, gọi tắt là... hiện toàn bộ
#Model #classification #graph #neural network #BERT
Tăng cường độ chính xác trong phát hiện tấn công Web dựa trên học sâu và xử lý ngôn ngữ tự nhiên
Tạp chí Khoa học - Công nghệ trong lĩnh vực An toàn thông tin - - Trang 77-87 - 2023
Tóm tắt— Ngày nay, tấn công web ngày càng trở nên phức tạp và tinh vi, gây khó khăn cho các tường lửa ứng dụng web (WAF) truyền thống trong việc nhận diện các mối đe dọa này, đặc biệt là các kiểu tấn công mới. Do vậy, các hướng tiếp cận dựa trên học máy/học sâu (ML/DL) đã được áp dụng trong lĩnh vực nhận diện tấn công web và đạt được những thành công nhất định. Tuy vậy, do sự khác biệt trong paylo... hiện toàn bộ
#Web attack detection #deep learning #natural language processing #web application security
Tashaphyne0.4: một bộ phân tích từ tiếng Ả Rập mới dựa trên phương pháp mô hình rễ Dịch bởi AI
Springer Science and Business Media LLC - Tập 26 - Trang 1-30 - 2023
Các thuật toán tìm gốc từ là những công cụ quan trọng để cải thiện quá trình truy xuất thông tin trong xử lý ngôn ngữ tự nhiên. Bài báo này trình bày một thuật toán phân tích từ nhẹ tiếng Ả Rập mới gọi là Tashaphyne0.4, với ý tưởng chính của thuật toán này là trích xuất các 'gốc' và 'thân' chính xác nhất từ các từ trong một đoạn văn tiếng Ả Rập. Do đó, thuật toán đề xuất hoạt động như một công cụ ... hiện toàn bộ
#thuật toán phân tích từ #xử lý ngôn ngữ tự nhiên #tiếng Ả Rập #trích xuất gốc #bộ phân tích từ nhẹ
Một bài đánh giá phạm vi về việc sử dụng xử lý ngôn ngữ tự nhiên trong nghiên cứu về phân cực chính trị: xu hướng và triển vọng nghiên cứu Dịch bởi AI
Journal of Computational Social Science - Tập 6 - Trang 289-313 - 2022
Là một phần của phong trào “văn bản như dữ liệu”, Xử lý Ngôn ngữ Tự nhiên (NLP) cung cấp một phương pháp tính toán để kiểm tra phân cực chính trị. Chúng tôi đã tiến hành một đánh giá phương pháp học thuật về các nghiên cứu được công bố từ năm 2010 (n = 154) để làm sáng tỏ cách mà nghiên cứu NLP đã khái niệm hóa và đo lường phân cực chính trị, và để xác định mức độ hội tụ của hai khuynh hướng nghiê... hiện toàn bộ
#Xử lý ngôn ngữ tự nhiên #phân cực chính trị #nghiên cứu liên ngành #mô hình hóa giải thích #mô hình hóa dự đoán
Khai thác Các Tweet của Người Bản Địa: Tập hợp Tài liệu Twitter Reo Māori Dịch bởi AI
Springer Science and Business Media LLC - Tập 56 - Trang 1229-1268 - 2022
Te reo Māori, ngôn ngữ bản địa của Aotearoa New Zealand, là một đặc điểm nổi bật của di sản văn hóa của quốc gia này. Bài báo này ghi lại những nỗ lực của chúng tôi để xây dựng một tập hợp dữ liệu gồm 79.000 tweet bằng tiếng Māori sử dụng các phương pháp tính toán. Tập hợp Tài liệu Twitter Reo Māori (RMT) được tạo ra bằng cách nhắm đến các người dùng tiếng Māori được xác định bởi trang web Indigen... hiện toàn bộ
#Te reo Māori #Twitter #ngôn ngữ bản địa #xử lý ngôn ngữ tự nhiên #Aotearoa New Zealand
Tổng số: 56   
  • 1
  • 2
  • 3
  • 4
  • 5
  • 6